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摘 要 : 随 着 智能 终端 设备 的 不 断 普及 ， 微 信 、 网 络 即 时 新 闻 、 电 商 客户 产品 评论 等 富 含 极 短 文本 数据 的 信息 呈 爆 
发 式 增长 。 为 了 有 效 提取 极 短 文本 中 的 关键 特征 信息 ， 提 出 了 一 种 基于 支持 向 量 机 的 极 短文 本 分 类 模型 。 首 先 对 原 
数据 进行 数据 清洗 并 利用 Jieba 分 词 将 清洗 过 的 数据 进行 处 理 ; 再 将 处 理 后 的 数据 存 入 数据 库 ， 通 过 TF-IDF 进行 文 
本 特征 的 提取 ; 同时 ,利用 支持 向 量 机 对 极 短文 本 进行 分 类 。 经 过 (1-0) 检验 ， 验 证 了 模型 的 有 效 性 。 实 验 以 芜湖 
市 社 管 平台 中 的 9906 条 极 短文 本 数据 作为 样本 进行 算法 检验 与 分 析 。 结 果 表 明 在 分 类 准确 率 方 面 ， 该 方法 相 比 于 
朴素 贝 叶 斯 、 还 辑 回归 、 决 策 树 等 传统 方法 得 到 有 效 提高 ; 在 误 分 度 与 精确 度 指 标 上 匹配 结果 更 加 均衡 。 
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Classification model based on support vector machine for Chinese extremely short text 


Wang Yangi, Xu Shanshan, Li Chang, Ai Shicheng, Zhang Weidong, Zhen Lei, Meng Dan 
i (School of Information & Computer Science, Anhui Normal University, Wuhu Anhui 241000, China) 


Abstract: With the increasing popularization of intelligent terminal devices, information containing abundant extremely 
short text data, such as WeChat messages, online instant news and customers' comments on e-commerce websites have been 
experiencing explosive growth. In order to effectively extract the key features from the extremely short texts, this paper 
proposes an extremely short text classification model based on SVM. Firstly, by the data cleansing on the original data, the 
cleaned data is processed by the Jieba segmentation and TF-IDF. Then the (1-0) test verified the validity of the model. 
Finally, 9906 pieces of extremely short texts in Wuhu City Community management platform are used as the sample in this 
experiment. The results show that the proposed method can effectively improve classification accuracy compared to other 
traditional methods, such as Naive Bayes, Logistic regression and Decision tree. At the same time, the matching results in 
terms of misclassification and accuracy are more balanced. 
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性 能 中 。 
0 引言 在 对 文本 分 类 的 研究 中 ， 支 持 向 量 机 得 到 了 广泛 应 用 。 

本 随 着 各 种 智能 终端 和 社交 软件 的 广泛 应 用 ， 用 户 针对 社 目前 基于 SVM 的 文本 分 类 技术 主要 有 以 下 几 种 :a) 改进 混 

仁 ”会 热点 、 政 府 行为 评判 的 表达 方式 更 加 广泛 、 多 元 、 便 捷 。 。” 合 核 函数 分 类 方法 通过 将 学 习 能 力 较 强 的 核 函 数 与 泛 化 

"三 。 其 中 各 种 各 样 的 评判 较 多 采用 不 完整 形式 的 极 短文 本 加 以 表 。 能力 较 好 的 核 函 数 重组 为 混合 核 函 数 ， 达 到 提高 分 类 效果 的 
达 。 如 何 从 不 完整 的 极 短文 本 中 快速 提取 出 有 价值 的 信息 ， 的 ，b) 基于 增 量 学 习 的 SVM 分 类 方法 中 充分 考虑 新 增 样 
对 决策 者 显得 极为 重 


。 着 眼 于 当前 自 媒体 秆 勃发 展 的 大 数 本 对 初始 样本 的 影响 ， 引 入 边界 支持 向 量 ， 提 出 基于 边界 文 
据 时 代 ， 人 们 更 加 习惯 于 通过 Twitter、Facebook、 微 博 、 微 持 向 量 的 增 量 学 习 算法 ， 在 训练 速度 和 训练 精度 方面 有 一 定 
言 等 在 线 社交 平台 ， 以 简短 精炼 的 朋友 圈 动 态 ， 窒 窒 数 字 的 提高 ;c 〉 特 征 选择 分 类 模型 中 ,针对 传统 的 卡 方 特征 选择 方法 
问题 反馈 等 形式 传递 情感 、 表 达 诉 求 。 这 种 文本 形式 具有 碎 的 局 限 性 ， 提 出 新 的 类 内 信息 优化 卡 方 统计 特征 选择 方法 。 
片 化 、 即 时 性 的 特征 ， 因 此 传统 的 文本 分 类 方法 就 难以 快速 有 效 提高 了 模型 的 特征 选取 能 力 。 


| 


ES 


提取 此 类 文本 中 的 信息 。 本 文 提出 了 一 种 基于 支持 向 量 机 的 Po 
极 短文 本 分 类 模型 。 1 ”相关 概念 及 万 法 
现 有 的 文本 分 类 方法 主要 有 以 下 两 种 : 可 聚 关 词 嵌入 法 ， 1.1 极 短文 本 
该 方法 将 一 个 均值 算 法 应 用 到 文档 的 单词 向 量 上 ， 以 获得 狭义 文本 是 指 书面 语言 的 表现 形式 ， 从 文学 角度 说 ， 通 
一 个 固定 大 小 的 集群 集合 。 每 个 文本 被 表示 为 一 个 超级 单词 。。” 常 是 具有 完整 、 系 统 含义 的 一 个 句子 或 多 个 句子 的 组 合 。 


嵌入 包 ， 计 算 每 个 超级 单词 嵌入 在 各 自 文本 中 的 频率 ， 即 可 义 文本 是 指 任何 由 书写 所 固定 下 来 的 任何 话语 。 在 狭义 文本 
得 出 文本 分 类 帆 ，b) 频 率 加 权 法 ,将 所 缺少 的 条 款 计算 在 内 ， 的 基础 上 , 文本 长 度 不 超过 160 个 字符 的 文本 称 作 短文 本 史 ， 
计算 出 现 有 条 款 的 权重 ， 结 合 SVM 分 类 器 ， 得 出 最 优 分 类 比如 通过 微 博 、 网 易 云 评论 ， 中 文 垃圾 短信 ， 垃 圾 邮件 等 形 


Wn 
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成 的 文本 。 他 们 是 当下 而 


究 文 本 分 类 的 主要 对 象 。 随 着 信息 


技术 的 发 展 与 生活 节奏 的 加 快 ， 出 现 了 一 类 用 更 加 简洁 的 文 
字 来 描述 事物 的 文本 ， 这 就 是 极 短文 本 〈extremely short text， 


EST)。 下 


某 种 客观 陈述 或 者 评价 建议 ， 不 一 定 具 


容 特 征 极 稀疏 等 特点 外。 生活 中 诸如 共享 单车 故障 的 报错 描 
述 ， 淘 宝 商品 的 简短 评价 ， 全 民 社 管 上 报案 卷 等 信息 都 属于 
极 短文 本 。 有 效 的 识别 


Ee 
个 字 。 


暂 给 出 极 短文 本 的 定义 。 
定义 1 极 短 文本 是 指 书 面 语言 的 表现 形式 ， 可 能 包含 
有 完整 、 系 统 含义 ， 

几 个 词语 或 者 短语 组 成 的 文本 ， 句 子 长 度 一 般 不 超过 15 


极 短文 本 主要 来 源 于 互联 网 ， 具 有 数量 大 、 噪 声 强 、 内 


分 类 极 短文 本 ， 达 到 快速 处 理 极 短 


文本 的 内 容 的 目的 ， 在 数据 应 用 、 公 司 管理 、 政 府 决策 等 方 
面 有 着 重要 的 意义 。 
1.2 ”增益 特征 向 量 


Im 


扩容 。 首 先 ， 分 析 社 会 管 
词 ， 记 8(B,B,,…,B,) 为 特征 词组 成 的 特征 向 量 ， 此 处 4 
值 较 小 ， 一 般 不 超过 4; 其次， 进一步 分 析 文 本 可 知 ， 


在 分 析 极 短文 本 时 ， 分 词 并 选取 特征 词 对 后 续 研 究 尤为 


要 。 由 于 文本 过 短 ， 从 已 知 内 容 中 , 一 般 仅 可 以 提取 出 3~4 
个 关键 词 。 显然 , 如 果 仅 基 
则 信息 量 不 足 ， 无 法 保障 结果 的 精确 度 。 因 此 ， 本 文 提出 了 
一 种 特征 词 增 量 模型 。 


于 这 些 特 征 词 建立 下 文 所 述 模型 ， 


下 面 以 社会 垃圾 的 信息 管理 为 例 说 明 该 模型 中 特征 词 的 
管理 上 报案 卷 的 极 短文 本 并 提取 特征 


的 取 
“水 上 


漂浮 “绿化 带路 
它们 概括 为 一 个 新 的 特征 词 ， 记 作 B,; 
=5,6,…,m, 便 得 到 
于 等 于 5 时 ， 特 征 向 量 就 
1.3 文本 预 处 理 


u 


i” 等 词语 描述 了 垃圾 的 位 置信 息 , 可 以 将 

农 此 类 推 ， 当 
兽 益 特 征 向 量 8(B,B,…,B,)。 在 u 取 值 大 
备 了 较 强 的 代表 性 。 


如 图 


1 所 示 ， 文 本 预 处 理 分 三 个 步骤 进行 :a) 加 载 原始 


数据 ， 将 其 中 混杂 的 文本 与 其 对 应 的 类 别 号 分 离开 来 ) 过 
滤 停 用 词 ， 考 虑 到 原始 数据 中 口语 话 较 严 重 ， 存 在 大 量 无 意 
义 的 停 用 词 ,因此 需 进 行 去 停 用 词 处 理 , 本 文 所 使 用 的 停 用 词 


表 为 《哈工大 停 用 词 表 》aic) 利用 Jieba 分 词 工具 对 纯 文本 
进行 分 词 。 
”去 停 用 词 | Jieba 分 词 | 
原始 文本 ft | 可用 数 所 
和 - 入 里 上 
| 信 词 表 | | 一 > 分 词 处 理 | 


图 1 数据 预 处 理 流程 


Fig.1 Data preprocessing process 


1.3.1 分 词 处 理 


Jieba 分 词 是 一 种 使 用 Python 语言 开发 的 中 文 分 词 工 具 。 


它 有 三 个 主要 特点 : a) 支持 三 种 分 词 模式 : 精确 模式 、 全 模 


式 、 搜 索引 擎 模式 ; b) 支持 繁体 分 词 ; c) 支持 自 定义 词典 。 
Jieba 分 词 的 实现 基于 以 下 
现 高 效 的 词 图 扫描 ， 生 成 句子 中 汉字 所 有 可 能 成 词 情况 所 构 
成 的 有 向 无 环 图 
态 规划 查找 最 大 概率 路 径 ， 找 出 基于 词 频 的 最 大 切 分 组 合 ; 
c) 对 于 未 登录 词 ， 采 用 
的 HMM 模型 。 


天 
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1.4 TF-IDF 特征 提取 


预 处 理 文本 之 后 ， 需 要 采用 
文本 中 提取 关键 词 并 


TF-IDF 


居 此 进 


或 词 对 于 一 个 文件 集 或 语料库 中 某 份 文件 


特征 词 w 而 言 ， 


已 日 
f(w)= 
其 中 , TF (特征 项 频 


的 


竺 征 提 取 函 数 为 : 


TF(w)x IDF(w)xlog[N/n(w)+1] 
率 ) 是 


行 建 模 。TF-IDF | 


药 


特征 提取 法 在 所 得 
以 评估 一 个 字 
的 重要 程度 。 对 于 


(1) 


指 在 一 个 文本 中 ,， 某 个 特征 项 (可 


以 是 字 或 词 ) 的 出 现 次 数 与 文本 中 所 有 特征 项 的 出 现 总 次 数 


的 商 。 如 果 某 个 特征 
明 该 特征 项 可 能 较 好 二 


分 类 。 


项 在 一 篇 文本 中 出 现 


的 次 数 较 多 ， 则 表 


也 描述 了 该 文本 的 主 


含 特征 词 w 


IDF 可 以 减弱 在 大 量 文本 中 都 含有 的 特征 


可 以 加 
姑 此 ， 
使 用 。 常 用 


强 只 有 少量 文本 包含 的 特征 词 的 重 


要 信息 ， 适 合用 于 


而 选择 IDF《〈 反 文档 频率 ) 作为 另 一 个 因数 的 主要 思想 
是 : 只 有 少量 文本 才 包 含 的 特征 词 比 大 量 
征 词 要 更 重要 ， 更 加 有 利于 区 分 文本 的 类 别 。 若 文本 集中 包 
的 文本 数量 越 少 ， 则 表示 w 的 类 别 区 分 度 越 好 。 


文本 中 都 包含 的 特 


IDF(W)=1og[N/n(w)+1] 


其 中 ，N 为 文本 总 数 ，n(w) 为 包含 w 的 文本 数 。 


TF-IDF 特征 提取 法 利 ) 


词 的 TF-IDF 权重 值 ， 


] 式 (1) 计算 
对 其 进行 降序 排 


[= 


词 的 重要 程度 ， 
要 程度 。 


特征 项 频率 TF 与 反 文档 频率 IDF 经 常 结 合 起 来 
式 (2) 计算 IDF: 


(2) 


出 文本 中 每 个 特征 
序 ， 然 后 根据 预先 


设 定 


了 对 原 特 征 空间 的 降 维 。 


的 筛选 条 件 筛选 出 满足 要 求 的 前 n 个 


1.5 支持 向 量 机 


特征 词 ， 从 而 实现 


通过 上 述 文本 分 类 方法 确定 了 极 短 文本 的 若干 个 特征 


词 。 在 支持 向 量 机 中 ， 对 于 待 分 类 的 样本 ， 将 寻找 一 个 所 谓 


SVM 分 类 器 的 泛 化 


即 令 检 


确 率 具有 很 大 帮助 001。 
分 数据 为 例 讨 论 支 持 


建 , 如 图 


2 所 示 。 


已 
月 上 
0 


现 以 二 维 线性 可 


力 , 增强 分 类 器 对 于 


本 之 间 的 间隔 达到 最 大 ， 这 对 于 提高 


未 知 样本 的 预测 准 


向 量 机 分 类 器 的 构 


WX+b=-1 WX+b=0 


图 2 支持 向 量 机 二 维 分 类 示意 图 


Fig.2 Schematic diagram of two-dimensional classification of SVM 


假 


设 现 


PE” 省 


线 性 


可 分 样 本 


{CGXd), CC2,d2)…(CX2d9)}，d” e{-1,1} ， 对 于 某 一 输入 样本 X" ， 


个 小 理 ; 


a) 基于 Trie 树 结构 实 


D> 


(Directed Acyclic Graph DAG); b) 采用 动 


了 Viterbi 算法 和 基于 汉字 成 词 能 力 


本 文 将 采用 Jieba 分 词 中 的 精确 模式 。 该 模式 是 Jieba 分 


词 中 最 基础 和 自然 的 模式 ， 它 试图 尽 可 能 精确 地 划分 语句 ， 


此 适合 极 短文 本 分 析 。 


期 望 输出 其 分 类 结果 d? 。 


定义 超 平面 方程 为 
WX+b=0 (3) 
其 中 : X 为 输入 ，W 为 权 值 向 量 ，b 为 偏 置 。 则 任 一 训练 样 
本 都 满足 : 
dr(W'X?+b)>1 (4) 
当 等 号 成 立 ， 则 样本 点 分 布 在 超 平面 附近 ， 称 为 支持 向 
为 寻找 最 大 间隔 平面 (最 优 超 平面 )， 由 解析 几何 知识 ， 
定义 样本 空间 内 任 一 点 X 到 最 优 超 平面 的 距离 为 
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_ WX+ (5) 训练 集 、 测 试 集 。 使 用 训练 集 对 分 类 器 进行 训练 后 ， 将 测试 
Iwl 集 输入 进行 验证 。 
式 〈5)， 支 持 向 量 到 超 平面 的 代数 距离 为 2.2 核 函 数 选择 
1 (6) 在 构建 SVM 分 类 模型 时 ， 选 择 一 个 合适 的 核 函数 至 关 
iw 重要 。 对 于 内 积 核 函数 ， 常 用 的 有 以 下 四 种 : 
线性 
上 式 可 知 ， 要 找到 最 优 超 平面 ， 则 只 需 Iw| 最 小 。 此 i 
K(X?,X)= XxX (14) 
时 优化 问题 可 以 转换 为 在 式 (4) 约束 下 ， 求 : b) 多 项 式 核 函数 (Poly): 
IwE 0) KX, X) =[(X X") +1y (15) 
2 d 为 多 项 式 核 函 数 的 最 高 项 的 次 数 。 
引入 Lagrange 函数 : c) 径 向 基 核 函数 (RBF): 
L(W,b,a) = 了 WwW -ww +b)—]] (8) K(X”,X)=exp(-y|X—X?|) (16) 


则 此 时 间 题 转换 为 求 Lagrange 函数 的 最 小 值 .对 W 和 b 


分 别 求 偏 导 ， 并 使 结果 为 0: 
W = Vadrx" dad =0 (9) 
联合 式 (8) (9) 可 得 
W -yawdrxny oad" =0 (10) 
根据 (8) (10) 可 得 
LW.b. 0 = lw'W+ Da, (11) 
则 有 
ma WD) = De, SD od XY x (12) 


确定 o 的 最 优 值 后 ， 结 合 (3) (9) 式 即 可 得 出 W 和 ob， 
此 时 可 得 到 最 优 分 类 判别 函数 为 : 
f(xX")=sgn(W X? +b) 


13 
=sgn(Y oud" (XY X +b,) 03) 
p21 


对 于 线性 不 可 分 数据 , 则 将 其 映射 到 高 维特 征 向 量 空 间 ， 
在 映射 函数 适当 且 特 征 空间 维 数 足 够 高 的 情况 下 ， 大 多 数 非 
线性 可 分 模式 可 在 特征 空间 中 转换 为 线性 可 分 模式 。 

2 ”支持 向 量 机 文本 分 类 模型 


2.1 算法 实现 
结合 支持 向 量 机 模型 ， 


极 短文 本 的 处 到 le 3 所 示 。 


停 用 词 表 ， 数据 预 处 理 | > 6 


图 3 极 短 文本 分 类 流程 


Fig.3 Extremely short text classification process 


经 过 基本 处 理 的 文本 信息 依然 不 能 被 计算 机 所 识别 ， 上 有 
其 中 每 个 词语 对 分 类 贡献 不 明确 。 为 此 ， 需 选用 某 种 方法 对 
其 进行 特征 提取 ， 强 化 特征 词 的 影响 并 且 减 弱 非 特征 词 的 干 
扰 。 


TF-IDF 是 一 种 典型 的 文本 特征 提取 算法 , 通过 词 频 与 反 
文档 频率 的 组 合计 算 ， 有 效 标志 出 词语 对 于 分 类 的 贡献 。 在 
对 分 类 器 进行 训练 之 前 ， 随 机 将 数据 按 70%、30% 比 例 分 为 


7 为 径 向 基 核 函数 的 参数 
d) Sigmoid 核 函 数 (Sigmoid): 
K(X?,X)=tanh[lu(X :X)—r] (17) 
u、 了 为 sigmoid 的 参数 。 
四 种 核 函数 在 不 同 的 应 用 场景 中 表现 各 不 相同 。 在 本 文 
特征 数 远 大 于 样本 数 的 情况 下 ， 通 常 选用 线性 核 函数 。 


3 ”实验 及 结果 分 析 
3.1 模型 验证 


为 了 检验 模型 © 灵敏度， 尤其 是 预测 的 准确 率 以 及 被 错误 
分 类 的 情况 ， 本 文采 用 了 基于 混淆 矩阵 的 检验 方法 。 泥 淆 矩 
阵 的 结构 如 下 : 
es 预测 
混淆 矩阵 c, 本 c. 合计 
Ci ti ti ES ti Cou(C) 
G3 ty ty; t Cou(C,) 
C， ti ty Ss thn Cou(C.,) 
合计 PC PGC, PC， N 
其 中 ， 对 于 n 阶 混淆 矩阵 
ti ta ts 
ty toy tn 
T= i 
tt .Tt 
当 ;:=7 时 , & 表示 预测 样本 中 , 被 正确 判别 到 C 的 个 数 ; 


当主 j 时 ， 忆 表示 本 应 属于 CG 类 的 样本 被 归 为 5; 类 的 个 数 。 
对 模型 的 检验 需要 从 两 个 方面 来 分 析 ， 一 方面 是 模型 的 预测 
准确 度 ， 另 一 方面 是 模型 处 理 不 同 预测 时 的 稳定 性 。 
首先 考察 模型 的 准确 度 。 在 对 抽取 的 样本 容量 为 N 的 样 
本 进行 预测 时 ， 正 确 预测 的 样本 个 数 占 样 本 总 数 的 比值 称 为 
准确 率 ， 记 作 4r ， 即 混淆 矩阵 的 迹 与 样本 总 数 的 比值 : 


t 


Tr) 之 (18) 
41r = 一 -= 一 一 
N N 


在 相同 的 环境 下 ， 利 用 程序 对 抽取 的 某 个 样本 进行 多 次 
预测 ， 每 次 均 可 得 到 一 个 随机 的 准确 率 。 在 大 量 实验 下 ， 准 
确 率 的 分 布 情况 如 图 4 所 示 . 


存在 大 量 训练 样本 的 条 件 下 , 模型 的 准确 率 较 高 。 在 100 
次 实验 后 ， 模 型 的 准确 率 稳定 在 98.1% 左 右 。 

其 次 考察 模型 的 稳定 性 。 相 对 于 总 预测 样本 来 说 ， 误 判 
的 个 数 越 少 ， 则 该 模型 越 稳定 。 本 文采 用 误 分 度 这 一 概念 来 
刻画 模型 的 稳定 程度 。 误 分 度 的 定义 如 下 ; 


定义 2 记 误 分 度 为 EE ， 则 
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优 。 
il 
pr (19) 
ty Xx| PC 
其 中 : PC; 表示 第 i 个 预测 分 类 中 ， 所 预测 的 个 数 ， 即 混淆 和 矩 
阵 的 列 和 。 


对 于 误 分 度 ， 需 要 从 数值 和 图 像 两 个 方面 衡量 。 从 数值 
上 看 ， 在 al(ijiz# 让 =0 时， 


藉 = (20) 
N 


在 误 分 情况 极 少 时 ， 误 分 度 趋 近 于 预测 样本 数 的 倒数 ; 
同时 ， 若 特征 向 量 合理 ， 预 测 样本 总 数 极 大 ， 则 误 分 度 趋 近 
于 0， 符合 实际 情形 。 


0.990 -] 


0.988 + 
0.986 -| 


证 0.984 -| 


0.982 :| 


0.980 :| 


0.978 41 


图 4 样本 预测 准确 率 
Fig.4 Sample prediction accuracy 

从 图 4 看 ,形成 的 散 点 应 在 某 条 水 平 直线 附件 上 下 波动 。 
满足 以 上 两 点 的 模型 具有 较 好 的 稳定 性 。 
综 上 ， 本 文 称 准确 率 与 误 分 度 的 共同 检验 为 (1-0) 检验 
模型 。 在 二 者 均 满 足 各 自 的 检验 条 件 时 ， 能 获得 较为 理想 的 
预测 结果 。 该 模型 不 仅 追 求 较 高 的 成 功率 ， 同 时 还 考虑 了 复 
杂 条 件 下 模型 的 适用 性 。 在 衡量 分 类 优 劣 时 ，(1-0) 检验 模 
型 具有 很 好 的 性 能 。 
3.2 ”基于 社 管 平台 数据 的 实验 

本 文 以 芜湖 市 “全 民 社 管 ” 软 件 采集 的 实际 数据 ， 对 模 
型 的 可 用 性 进行 了 进一步 检验 。 所谓“ 全 民 社 管 ”， 即 市 民 发 
现 本 市 的 不 文明 现象 、 安 全 隐患 、 损坏 的 公共 设施 等 问题 后 ， 
通过 手机 进行 爆料 ， 移 交 政 府 有 关 部 门 处 置 ， 从 而 实现 “ 共 
建 、 共 治 、 共 享 ” 的 社会 治理 格局 。 本 文 的 模型 即 对 于 每 一 
条 上 报 的 案卷 ， 判 别 该 案卷 所 属 类 别 ， 以 便 快 速 处 理 。 通 过 
该 软件 , 采集 到 9906 条 极 短文 本 , 包含 环境 卫生 、 违规 广告 、 
施工 垃圾 、 安 全 隐患 、 违 法 占 道 、 公 共 设 施 等 6 项 内 容 。 将 
文本 输入 经 过 训练 后 的 分 类 器 进行 分 类 ， 结 果 如 表 1 所 示 。 

为 检验 模型 的 误 分 度 ， 在 不 改变 训练 集 的 前 提 下 ， 分 别 
选取 了 测试 集中 的 600、1000、2000 个 数据 进行 实验 ， 结 果 
如 图 5 所 示 。 图 5 显示 ， 在 测试 集 逐 渐 增 大 的 情况 下 ， 误 分 
度 有 趋 近 样 本 数 的 倒数 的 趋势 ， 同 时 ， 随 着 样本 数 的 增 大 ， 
误 分 度 在 一 条 水 平 直 线 上 波动 , 该 直线 略 高 于 样本 数 的 倒数 。 
姑 此 ， 模 型 在 大 规模 数据 样本 的 场景 下 性 能 较 优 。 
为 了 验证 模型 的 有 效 性 ， 进 行 了 对 比 实验 。 实 验 采 用 
Python 进行 数据 分 析 ， 将 数据 随机 分 为 70% 的 训练 集 ，30% 
的 测试 集 ， 对 模型 进行 了 5 次 实验 ， 其 结果 如 表 1 所 示 。 在 
表 1 中 ， 用 于 评价 模型 的 指标 选取 了 精确 度 (precision) , 召 
可 率 (recall) 以 及 Fl 值 (fl-score) 三 种 。 其 中 精确 度 表现 
了 模型 对 于 正 样本 的 区 分 程度 ， 召 回 率 体现 了 对 负 样 本 的 区 
分 程度 ， 而 Fl 值 则 是 二 者 均值 。 实 验 数据 表明 ，SVM 相 比 
其 他 算法 有 着 更 高 的 准确 率 ， 且 在 样本 的 识别 度 方面 表现 较 


实验 次 数 


(a) 测试 样本 =600 


(c) 测试 样本 =2000 


图 5 误 分 度 预测 
Fig.5 Misclassification prediction 
表 1 算法 比较 实验 结果 


Table 1 algorithm comparison experiment results 


实验 次 数 


算法 选择 评价 指标 j 人 


Fl-score 0.98 0.98 0.98 0.98 0.98 

支持 向 量 机 Recall 0.98 0.98 0.98 0.98 0.98 
Precision 0.98 0.98 0.98 0.98 0.98 

Fl-score 0.89 0.88 0.88 0.88 0.88 

Recall 0.90 0.89 0.89 0.89 0.89 


贝 叶 斯 
Precision 0.91 0.89 0.88 0.88 0.88 
Fl-score 0.97 0.97 0.97 0.97 0.97 
本 Recall 0.97 0.97 0.97 0.97 0.97 
决策 树 


Precision 0.97 0.97 0.97 0.97 0.97 
Fl-score 0.95 0.95 0.94 0.95 0.96 
逻辑 回归 Recall 0.96 0.95 0.95 0.95 0.95 
Precision 0.94 0.95 0.96 0.95 0.96 


表 1 表明， 支持 向 量 机 在 精确 度 、 召 回 率 等 方面 均 上 共有 

较 好 表现 ， 分 类 结果 较为 理想 。 

数据 集 包含 环境 卫生 、 违 规 广告 、 施 工 垃圾 、 安 全 隐患、 

违法 占 道 、 公 共 设 施 等 6 项 内 容 。 将 文本 输入 经 过 训练 后 的 

分 类 器 进行 分 类 , 分 别 得 到 的 正确 分 类 数量 结果 如 表 2 所 示 。 
表 2 样本 数据 分 类 实验 结 


Table 2 Sample data classification experiment results 
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样本 种 类 
环境 卫生 违规 广告 施工 垃圾 安全 隐患 违法 占 道 公共 设施 
样本 数 ” 1964 1265 633 217 4359 1594 
SVM 1933 1252 630 212 4322 1367 
贝 叶 斯 1854 1123 542 9 4311 996 
决策 树 1928 1202 626 210 4233 259 
逻辑 回归 1930 1214 620 206 4302 1170 


从 表 2 可 以 看 出 ， 支 持 向 量 机 的 分 类 效果 明显 优 于 其 他 
三 种 算法 ， 且 在 样本 数量 较 少 时 表现 优异 。 

在 支持 向 量 机 的 应 用 中 ， 选 择 合适 的 核 函 数 至 关 重 要 。 
现 阶 段 主 要 有 两 种 选择 方案 ， 一 是 根据 前 人 经 验 ; 二 是 根据 


实验 结果 对 比 。 本 文通 过 对 


定稿 王 杨 ， 


比 实验 ， 最 终 决定 选择 线性 核 函 


数 。 其 实验 结果 《分 类 准确 率 ) 如 表 3 所 示 。 
表 3 核 函 数 比较 实验 结 
Table 3 Nuclear function comparison experiment results 
实验 次 数 
人 1 2 3 4 5 
Linear 0.985 0.979 0.985 0.978 0.984 
Poly 0.44 0.43 0.43 0.43 0.43 
RBF 0.45 0.43 0.43 0.45 0.44 
Sigmoid 0.43 0.42 0.44 0.43 0.44 
由 对 比 实验 可 知 ， 线 性 核 函数 相 比 于 其 他 核 函 数 具有 极 
大 的 优势 ,在 其 他 核 函数 分 类 准确 率 只 有 45% 左 右 的 情况 下 ， 
线性 核 函 数 仍 能 保持 98% 以 上 的 分 类 准确 率 。 
4 ”结束 语 
本 文 根 据 智慧 社会 管理 平台 的 现实 需要 ， 提 出 了 基于 由 
叶 斯 决策 的 极 短文 本 分 类 模型 。 模 型 通过 特征 词 提取 保障 了 


关键 词 的 合理 性 ; 
最 后 对 模型 进行 检验 ， 实 验 表 明 模 型 
类 性 能 。 但 模型 的 误 分 度 稳定 性 


用 


f 


随后 将 分 类 概率 与 贝 叶 斯 分 类 器 相 结合 ; 
有 良好 的 极 短文 本 分 
E 和 词语 权重 合理 性 等 问题 仍 


村 进一步 研究 。 
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